Anomaly detection and localization are widely used in industrial manufacturing for its efficiency and effectiveness. Anomalies are rare and hard to collect and supervised models easily over-fit to these seen anomalies with a handful of abnormal samples, producing unsatisfactory performance. On the other hand, anomalies are typically subtle, hard to discern, and of various appearance, making it difficult to detect anomalies and let alone locate anomalous regions. To address these issues, we propose a framework called Prototypical Residual Network (PRN), which learns feature residuals of varying scales and sizes between anomalous and normal patterns to accurately reconstruct the segmentation maps of anomalous regions. PRN mainly consists of two parts: multi-scale prototypes that explicitly represent the residual features of anomalies to normal patterns; a multisize self-attention mechanism that enables variable-sized anomalous feature learning. Besides, we present a variety of anomaly generation strategies that consider both seen and unseen appearance variance to enlarge and diversify anomalies. Extensive experiments on the challenging and widely used MVTec AD benchmark show that PRN outperforms current state-of-the-art unsupervised and supervised methods. We further report SOTA results on three additional datasets to demonstrate the effectiveness and generalizability of PRN.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
功能转换旨在通过数学转换现有功能来提取良好的表示(功能)空间。应对维度的诅咒,增强模型概括,克服数据稀疏性并扩大经典模型的可用性至关重要。当前的研究重点是基于领域的知识特征工程或学习潜在表示;然而,这些方法并非完全自动化,不能产生可追溯和最佳的表示空间。在重建机器学习任务的功能空间时,可以同时解决这些限制吗?在这项扩展研究中,我们提出了一个用于特征转化的自优化框架。为了取得更好的性能,我们通过(1)获得高级状态表示来改善初步工作,以使加强代理能够更好地理解当前功能集; (2)解决Q值高估的Q值高估,以学习无偏见和有效的政策。最后,为了使实验比初步工作更具说服力,我们结论是通过五个数据集添加异常检测任务,评估各种状态表示方法,并比较不同的培训策略。广泛的实验和案例研究表明,我们的工作更有效和更高。
translated by 谷歌翻译
基于AI的蛋白质结构预测管道(例如AlphaFold2)已达到了几乎实验的准确性。这些高级管道主要依赖于多个序列比对(MSA)和模板作为输入来从同源序列中学习共进化信息。但是,从蛋白质数据库中搜索MSA和模板很耗时,通常需要数十分钟。因此,我们尝试通过仅使用蛋白质的主要序列来探索快速蛋白质结构预测的极限。提出了Helixfold单一的形式将大规模蛋白质语言模型与AlphaFold2的优质几何学习能力相结合。我们提出的方法,Helixfold单个,首先预先培训是一种大规模蛋白质语言模型(PLM),使用了数以千计的主要序列利用自我监督的学习范式,将用作MSA和模板的替代方法共同进化信息。然后,通过将预训练的PLM和AlphaFold2的必需组件组合在一起,我们获得了一个端到端可区分模型,以仅从主要序列预测原子的3D坐标。 Helixfold-Single在数据集CASP14和Cameo中得到了验证,通过基于MSA的方法,具有大型同源家庭的基于MSA的方法,从而实现了竞争精度。此外,与主流管道进行蛋白质结构预测相比,Helixfold单个的时间比主流管道的时间少得多,这表明其在需要许多预测的任务中的潜力。 HelixFold-Single的守则可在https://github.com/paddlepaddle/paddlehelix/tree/dev/dev/pprotein_folding/helixfold-single上获得,我们还在https://paddlehelix.baidu.com上提供稳定的Web服务。 /app/drug/protein-single/prevast。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
由于MDLATLRR仅考虑通过潜在低级表示(LATLRR)提取的输入图像的详细零件(显着特征),因此它不使用LATLRR提取的基本零件(主要特征)。因此,我们提出了一种称为MDLATLRV2的改进的多级分解方法,该方法有效地分析并利用了LATLRR获得的所有图像特征。然后,我们将MDLATLRV2应用于医疗图像融合。基本部分是按平均策略融合的,细节零件是通过核电 - 运行融合的。与现有方法的比较表明,所提出的方法可以在客观和主观评估中实现最先进的融合性能。
translated by 谷歌翻译
深层自然语言处理(NLP)模型的快速发展导致迫切需要对这些模型单独提出的统一理解。由于缺乏解释低级(例如单词)和高级(例如,短语)特征的统一措施,现有方法无法满足一个框架中不同模型的需求。我们已经开发了一个视觉分析工具DeepNLPVI,以使对文本分类的NLP模型有统一的理解。关键思想是一种基于信息的度量,它提供了有关模型的每一层如何维护样本中输入单词信息的定量解释。我们在每个层的内部和界面信息中对单词对最终预测的重要性以及单词之间的关系(例如短语的形成)进行建模。多层可视化由语料库级,样本级别和单词级可视化组成,支持从整体训练集到单个样本的分析。关于分类任务和模型比较的两个案例研究表明,DeepNLPVI可以帮助用户有效地确定样本和模型架构引起的潜在问题,然后进行明智的改进。
translated by 谷歌翻译
类激活图(CAM)已被广泛研究,用于视觉解释卷积神经网络的内部工作机理。现有基于CAM的方法的关键是计算有效的权重以在目标卷积层中结合激活图。现有的基于梯度和得分的加权方案在确保CAM的可区分性或忠诚度方面表现出了优越性,但它们通常在这两种属性中都无法表现出色。在本文中,我们提出了一种名为FD-CAM的新型CAM加权方案,以提高基于CAM的CNN视觉解释的忠诚和可区分性。首先,我们通过执行分组的通道切换操作来提高基于分数的权重的忠诚和可区分性。具体而言,对于每个通道,我们计算其相似性组,并同时打开或关闭一组通道以计算类预测评分的变化为权重。然后,我们将改进的基于得分的权重与常规梯度的权重相结合,以便可以进一步提高最终CAM的可区分性。我们与最新的CAM算法进行了广泛的比较。定量和定性的结果表明,我们的FD-CAM可以对CNN产生更忠实,更具歧视性的视觉解释。我们还进行实验,以验证提出的分组通道切换和重量组合方案在改善结果方面的有效性。我们的代码可在https://github.com/crishhhhh1998/fd-cam上找到。
translated by 谷歌翻译
手写数学表达识别(HMER)是具有许多潜在应用的挑战性任务。 HMER的最新方法通过编码器架构实现了出色的性能。但是,这些方法符合“从一个字符到另一个字符”进行预测的范式,由于数学表达式或厌恶的手写的复杂结构,这不可避免地会产生预测错误。在本文中,我们为HMER提出了一种简单有效的方法,该方法是第一个将语法信息纳入编码器编码器网络的方法。具体而言,我们提出了一组语法规则,用于将每个表达式的乳胶标记序列转换为一个解析树。然后,我们将标记序列预测建模为具有深神经网络的树遍布过程。通过这种方式,提出的方法可以有效地描述表达式的语法上下文,从而减轻HMER的结构预测错误。在三个基准数据集上的实验表明,与先前的艺术相比,我们的方法实现了更好的识别性能。为了进一步验证我们方法的有效性,我们创建了一个大规模数据集,该数据集由从一万个作家中获取的100k手写数学表达图像组成。该工作的源代码,新数据集和预培训的模型将公开可用。
translated by 谷歌翻译
本文提出了一种用于红外和可见图像的新型Res2net的融合框架。所提出的融合模型分别有三个部分:分别是编码器,融合层和解码器。基于RES2Net的编码器用于提取源图像的多尺度特征,该文件引入了用于培训仅使用单个图像的Res2net的编码器的新培训策略。然后,基于注意模型开发了一种新的融合策略。最后,解码器重建融合图像。还详细分析了所提出的方法。实验表明,我们的方法通过与现有方法进行比较,实现了客观和主观评估中的最先进的融合性能。
translated by 谷歌翻译